在前面两节中,我们学习了矩估计和极大似然估计,它们有一个共同特点,就是得到的都是点估计量(Point Estimate)。例如,使用样本均值对总体均值进行估计,得到的是一个具体的数值,这就是点估计的意思。点估计的优点很明显,那就是简单易懂。以股票收益率为例,某股票的长期平均收益率是,但是很遗憾是未知参数。因此,我们需要用样本均值去估计它。为此,我们计算了过去200个交易日的收益率均值,发现。请问:如果你现在投资该股票,是你对未来长期收益率的预期吗?答:不是的。为什么?因为我对该股票未来收益率的长期预期应该是。在目前的模型假设下,是一个固定的参数,跟样本无关。但是,是一个统计量,会受到所用数据的影响。比如,使用199个交易日或者201个交易日所得到的会有所不同。所以这里的仅仅是对的一个估计。前面提到,只要是估计就会有误差。只要有误差,就意味着真实的,大概率不是。因此,如果我们只关注点估计,那么该估计量的估计误差就被彻底忽略了。另一方面,作为一个合理估计(例如:矩估计),我们相信它距离真值,不应该“太远”,应该保持一个虽然随机但是合理的距离。但是,什么样的距离才是合适的距离呢?能否根据这个距离,构造一个以为中心,大小合适的区间呢?我们希望该区间能够以很大的可能性覆盖真值,这个区间就是我们要构造的区间估计(Interval Estimate),区间估计中一种最重要的方法就是置信区间(Confidence Interval)。请大家注意区分两个不同的概念:预测区间(Prediction Interval)和置信区间(Confidence Interval)。前者的目的是构造一个区间,能够以很大概率覆盖住随机变量X自身,而后者是构造一个区间,能够以很大概率覆盖住某一个参数(例如:的期望)。这是两个非常不同的概念,一定要小心区分。前者的区间长度是不可能很小的,无论样本量多大。这是因为它要捕捉的目标就是一个随机变量。但是,后者要捕捉的目标是一个非随机的稳定的参数,因此,只要样本量足够大,区间长度就会任意小。为了很好地区分这两种区间,我们先讨论以下几个重要的案例。其中多个案例已经在前面的章节中有过讨论,因此可以前后对比着学习,效果更好。案例1:孩子身高体重。 身高和体重是衡量青少年发育状况的重要指标,父母也常常会测量孩子的身高体重,以监测孩子的发育是否正常。但要想判断孩子是否“正常”,仅仅知道自己孩子的身高体重是不够的,还需要了解同年龄段其他孩子的身高体重,以作比较。如果我们计算出周围100个同龄孩子的身高均值,接着怎么办呢?比较同龄孩子们的身高均值和自家孩子身高的大小关系?然而身高异常高和异常低都是不正常的,所以就需要构造出一个区间,使得这个区间能以很大概率覆盖住某个正常孩子的身高。请注意,这里正常孩子的身高是个随机变量,此时我们构造的区间就叫做预测区间。当自家孩子的身高不处于构造的预测区间中时,就有理由担心自家孩子的发育程度。那么什么时候构造的是置信区间呢?假设同龄孩子的身高总体近似服从正态分布,但对应正态分布的均值和方差待定。为了估计均值的大致范围,同样收集了周围100个同龄孩子的身高,以此构造了一个区间,使得这个区间能很大概率覆盖住同龄孩子身高的平均水平(即均值,而不是具体某个孩子的身高)。此时构造的区间即为置信区间。随着样本量的持续增加(例如:从100个同龄孩子变成1000个),那么我们关于总体均值的判断可以越来越准确。只要样本量足够大,精度就可以任意高,因此置信区间长度可以任意小。但是,无论多大的样本量,一个正常孩子的身高(即随机变量),一定是在一定范围内的,不可能小于(例如)10厘米,也不可能超过(例如)3米。这个范围刻画的是一个正常孩子的身高范围,是一个预测区间,具有很大的不确定性,随着样本量的增加,这个预测区间的长度是越来越稳定的,但不会趋向于0,无论样本量多大。案例2:股票收益率。 假设投资了一只股票,想对该股票未来的收益和风险做一个基本评估。由于股票收益率具有很大的不确定性,因此可以用一个随机变量来刻画它。假设该随机变量近似服从正态分布,那么该分布的均值就描述了我们对该股票长期收益率的预期(期望),而方差就描述了该股票收益率不确定性的大小。为什么我们会关心股票的长期收益率呢?难道不应该更加关心具体的收益率吗?作为一个普通的投资者,肯定更关心具体收益率。比如,如果知道明天的是正数,我就敢买多;如果知道明天的是负数,我就敢买空。因此,我们非常希望有一个关于的预测区间,而且最好这个区间完全为正(看涨),或者全部为负(看跌)。有兴趣的同学可以自己尝试一下,绝大多数情况下,我们能获得的预测区间的范围都是有正有负的,而且几乎是一半为正,一半为负。这说明:对于该股票的短期走势,是非常难以判断的。开一个小小的玩笑,如果股票日度收益率都能预测得非常准确,可能咱们就不在这里码字写书了。因此,很多投资者(不是全部),更关注目标股票的长期收益率。什么是长期收益率?可能有不同的描述方式。一种可能的方式就是用短期收益率的期望来表达。此时,你会发现虽然非常靠近,但是其置信区间却有可能完全为正,或者完全为负。这是因为:只要样本量足够大,置信区间的长度就可以足够小,对形成投资决策的帮助可能更有意义一些。案例3:二手房价格。 安居乐业是幸福生活的重要组成,其中安居尤为重要,因此买房是每个家庭的重要人生目标之一。在当前社会中,很多人买房的目的不仅仅是居住,房产作为家庭资产的重要组成部分,也具有保值增值的功能。因此对于手中持有的房产,很多人都关心其当前价值,和购买时相比,房产是否保值甚至增值,增值的话又增值了多少?而房产的当前价值又可以通过其在二手房交易市场中的价格来反映。假设我是一个二手房业主,最近希望卖房。那么,我非常希望能通过市场中同类二手房的交易价格来对自己这套房产可能的成交价格做一个预测。更具体地说,那就是要预测自己的房产成交价格X的区间。如果要求此区间以一定概率覆盖自己的房产成交价格的话,此时我们需要构造的就是预测区间。显然,关于这套二手房的具体交易价格是不可能预测得绝对准确的。哪怕是同一个小区,两个完全相同的房产,最终交易价格也会有所不同。这与买卖双方的博弈相关,这就决定了预测区间的长度不会太小,无论样本量多大。同时,无论最终交易价格会如何不同,相似的房产最终的成交价格应该是相似的,应该是有一个中心的,这个中心可以通过同类型房产的预期价格来刻画,而这就是的均值。案例4:产品质检。 在工业生产中,对产品的质量检查非常重要。例如,经常会看到某个商品的包装上写着,该产品净重多少克。产品的重量是否达标是衡量产品质量是否合格的重要标准。为了保证产品质量,工厂通常会对生产线上的产品进行随机抽检,然后通过抽检到的产品重量来对该生产线生产产品的情况进行估计。假设工厂规定,产品的目标重量是20g,允许正负1g的误差。进一步假设该生产线上所生产的产品重量近似服从正态分布,那么该正态分布的均值就描述了该生产线所生产产品的平均重量,而方差(或标准差)就描述了该生产线的稳定性。一个工作良好的生产线,应该是靠20g非常近,而标准差应该远远小于1g,在这种情况下,该生产线生产的产品会以很大的概率满足设计要求。请问这样一个业务问题可以如何表达为预测区间或者置信区间的问题呢?可能有两种思路。第一种思路是通过预测区间来控制。毕竟,人们真正关心的既不是也不是,而是真正的产品重量。一个好的生产线,应该保证整个预测区间稳稳落在20g±1g以内,否则就容易出次品。所以,这是一个预测区间的角度。进一步分析,其实可以发现,最能够决定预测区间大小的两个核心因素是:产品重量的均值和标准差。因此,另外一个解决问题的思路是:构造关于均值和标准差的置信区间。只要关于的区间估计能够将20g牢牢套入其中,而且的区间估计足够小,那么这个生产线就是安全可靠的。通过上面几个例子的学习,假设你已经可以很好地区分预测区间和置信区间了。事实上,在前面的章节中,预测区间已经被多次在案例中展现了。当时的展示其实都有点瑕疵。那就是,把通过样本计算得到的参数估计,直接当成真实参数了。在样本量很大的情况下,这样做似乎也没有太大的问题。但是,如果样本量较小,估计误差很大,那参数估计与真实参数可能相差甚远,此时产生的预测区间就会非常不准确了。如何对这个问题进行修正?这是一个很好的理论问题,有兴趣的同学可以通过进一步学习高等统计学来解决该问题。而本章,将集中精力探讨置信区间。为此,需要认真学习一下统计学中最重要的一个定理:中心极限定理。该定理在前面的章节中有所涉猎,但是没有深究。这里将对其做一个更加深入的讨论。首先,考虑一个有趣的问题。假设有个独立同分布的随机变量,它们的均值为,方差为(因此二阶矩是存在的)。然后,假设关注的目标参数是,并考虑用样本均值来估计。前面的学习告诉我们,样本均值是一个关于的无偏估计,而且方差为,随着样本量的增加趋向于零。这是什么意思呢?为了获得更好更直观的理解,我们做一个有趣的随机实验。一方面,产生1万个服从标准正态分布的随机变量,并将其直方图画在图2.3.1上作为背景。然后,随机模拟1000个,每个都是基于个标准正态分布随机变量计算得到的,因此事实上生成了10万个服从标准正态分布的随机变量。然后,再把这1000个的直方图画在同一个图上,你看到了什么?是不是关于的直方图几乎成了一根细细的柱子。为什么?因为:的方差太小了,是,是随着的增加趋向于的,所以导致的变异性非常小,因此没法作图,研究人员也就没办法直接观察它的分布形态。图2.3.1 标准正态分布随机数和100个标准正态分布随机数均值的直方图
为了解决这个问题,可以考虑对做一个标准化的变换。为此,重新定义一个新的随机变量:。可以很快验证一下,是一个均值为,方差为的随机变量。如果原始的是正态分布,那么也是正态分布的,因此还是正态分布。再根据的均值为0和方差为1,可以知道,就是一个服从标准正态分布的随机变量。如果此时再随机生成1000个,把它的直方图画出来,然后跟标准正态分布的理论密度函数做对比(见图2.3.2),你会发现它们之间是非常吻合的。请注意:线性变换并不会改变一个变量的分布形态。因此,的分布形态和是完全一样的。它们的核心区别就两个:(1)有由于产生的位移变换,(2)有由于产生的尺度变换,仅此而已。图2.3.2 随机变量Z的频率直方图和标准正态分布概率密度函数
请问,上图呈现的结果让你惊讶吗?答:不惊讶。因为原始的本来就是正态分布的随机变量,做了标准化(某种线性变换)后,仍然是正态分布,这一点都不奇怪。请注意,正态分布有一个非常良好的性质。那就是,独立正态随机变量的任意线性组合仍然服从正态分布,当然均值方差有可能会有所改变。下面再进行一个实验。我们尝试把的分布,从标准正态分布改为指数分布(),然后进行标准化得到,并观察在不同样本量()下,的分布直方图(如图2.3.3)。请问从中你看到了什么?取1时随机变量的分布还呈现指数分布的形状,然而随着增大,随机变量的分布越来越接近标准正态分布。图2.3.3 不同样本量n下指数分布均值标准化后的频率直方图
请问:上图呈现的结果让你惊讶吗?是不是有一点小惊讶?毕竟随机变量的分布不是正态分布。不过,这可能仍然不是最令人吃惊的地方。因为毕竟指数分布也是连续分布呀。那么我们再进行一个实验。这次把的分布从标准正态分布替换成一个超级不连续的分布,例如:0-1分布,对应的结果见图2.3.4。请问:你发现了什么?可以看到,虽然的分布已经替换为了0-1分布,但随着增大,随机变量的分布居然依然越来越接近标准正态分布!图2.3.4 不同样本量n下0-1分布均值标准化后的频率直方图
从上面的实验中可以发现:无论服从正态分布、指数分布还是离散的0-1分布,经过标准化变换后,随机变量都会随着样本量增大而渐近地服从正态分布。这让人不禁猜想,当服从任意的分布都有这样的结论吗?答:是的。这就是中心极限定理。前面提到,中心极限定理中的“极限”其实就是高斯分布,著名的数学家高斯对中心极限定理也做出了了不起的贡献。以至于,在过去的10面值德国马克上,高斯的头像旁边就绘制着正态分布的密度函数。直至今日,在严肃的统计学或者相关学术研究中,正态分布也常常被叫做高斯分布。中心极限定理所描述的现象也极其广泛地存在于非独立同分布的情形中,有兴趣进一步了解的同学,请给自己埋下一颗好学的种子,未来进一步学习。有了中心极限定理这个强大的工具之后,我们可以回到本节最开始提出的问题:如何基于构造一个关于的置信区间,使得这个区间很大概率地覆盖住呢?首先假设置信区间覆盖住参数的概率至少为,这个值也被称为置信水平。寻找置信区间即在于找到两个统计量和,使得。根据中心极限定理的结论,我们有,随机变量渐近服从正态分布。简单来说就是,无论的分布如何,在极广泛的条件下,我们都有近似服从一个标准正态分布,只要样本量足够大。但是多大才是足够大呢?这个问题不好回答,因为这依赖于对近似精度的需求。我们对此的看法是,样本量多大都不重要,因为无论多大都是近似,而近似的分析结果是为决策者提供参考依据的。精度特别高与一般高差别不大,但是不要毫无规范,严重错误就好。为了简单起见,这里先假设样本分布的标准差已知。那么请问,当样本取值已定时,对于统计量而言其随机性来源于什么地方呢?答:仅来源于渐近正态分布随机变量。当把握住的变化范围后,经过变换就能得到参数的变化范围。而由于样本量较大时,随机变量可以当作正态分布随机变量进行处,因此虽然随机,但也可以找到一个区间,使得取值在区间内的概率为。请问:这样的区间如何表示?表示起来是不是不太方便?在此之前我们面临的需求都是解答随机变量在一个区间内的概率,而现在需要反过来思考:已知某区间内随机变量的概率,求该区间。为了应对这样的需求,下面给出一个关键的概念:标准正态分布的分位数。设标准正态分布的分位数为,那么指的是对标准正态分布概率密度函数从负无穷处开始积分,积分值为时的积分上限,也可以表示成。为了方便解释分位数的含义,图2.3.5展示了标准正态分布的概率密度函数图,其中表示阴影区域面积,也即标准正态分布随机变量位于负无穷到区间内的概率。也称为标准正态分布的分位数。图2.3.5 标准正态分布概率密度函数图及α分位数
另外,由于标准正态分布概率密度函数关于对称,因此有,这一关系式十分常用。分位数中的取值可以任意选取,但是在实际应用中存在几个典型的标准正态分布分位数,例如,和。有了分位数这种表示方式后,就可以选取标准正态分布的分位点和分位点来构成区间,使得随机变量取值在区间内的概率为,即。进一步根据和的关系式进行变换可以得到下面的式子:上式说明,在置信水平下,均值的置信区间为,其中和 分别为 和 ,这里的和刚好互为相反数。要注意的是,在上面的过程中,我们假定了两个额外条件:第一,样本量需要较大,第二,分布标准差需要已知。然而实际问题中,我们常常难以提前预知样本分布的方差或是标准差。此时又如何构造置信区间呢?一种可行的办法是通过样本数据将该参数估计出来,估计方法可以使用前几节中介绍的矩估计或是极大似然估计的方法。例如当服从正态分布时,正态分布参数可以用矩估计来替代,由此构造的置信区间变为:同样在服从正态分布的假设下,其实我们也可以使用分布来构造置信区间,但并不提倡,原因有三:(1)真实数据从不服从严格的正态分布;(2)只要样本量足够大,分布也变成了正态分布,因此两个方法的结果基本一致;(3)样本量小的时候呢?就不该做分析,也许真的拍脑袋更靠谱。在介绍了如何构造均值参数的置信区间之后,可以接着对本节开头介绍的两个案例进行实例分析。在分析过程中帮助大家进一步厘清预测区间和置信区间的区别,更实际地理解置信区间的应用价值。首先分析二手房价格的案例。为此,我们收集了广州市在售的41108套二手房的相关信息,包括每套二手房的单位价格、面积、朝向、楼层等。由于单位价格本身为右偏分布,因此可以对单位价格进行对数变换,使得对数变换后的单位价格近似服从正态分布。假设现在我手中有一套位于广州市的二手房等待出售,而我想知道这套房子能卖多少钱。粗略地来看,我只需要得到一个价格区间,使得这个价格区间以很大的概率覆盖这套房子的最终售价。这样得到的预测区间能帮助我大致把握这套房子的最终售价。不妨假设我手中这套房子的单位价格为,那么将近似服从标准正态分布。其中参数和可以通过矩估计近似得到,结果为=10.39,=0.44。假设预测区间覆盖最终售价的概率要达到90%,那么我们得到下面的式子:其中,和分别表示标准正态分布的0.05和0.95分位数。化简上面的式子可以得到预测区间的表达式:。计算得到预测区间下界为10.39-0.44×1.645≈9.67,预测区间上界为10.39+0.44×1.645≈11.11。请注意,这一区间是对数单位价格的预测区间,还需要通过指数运算还原成原始的单位价格。最终可以计算得到这套房子的预期单位价格将在1.58万每平方米至6.68万每平方米的区间内,这就是预测区间。在上面的计算过程中我们获得的是对某一套二手房单位价格的随机变量的预测区间。假设现在我们不满足于只得到一个比较宽泛的范围,还想进一步了解某个更具体的二手房类别(例如高楼层和位于天河区等)中房子的平均价格(不是具体价格)。假设这些房子的单位价格服从正态分布,因此我们更好奇这个正态分布均值的估计范围。此时就需要用到本节给出的均值的置信区间表达式。下面考虑一个具体的例子,比如关注广州市内不同区域二手房的单位价格均值。广州市一共有天河区、越秀区等12个区域目前有在售的二手房房源,其中天河区共有6450套二手房在售,对应单位价格的均值和标准差分别为54140.88和17950.08元每平方米。假设置信水平为0.95,根据本节给出的均值置信区间表达式:,将单位价格的均值和标准差代入,可以得到置信区间的下界为:.81,置信区间的上界为:。因此,广州市天河区二手房的单位价格均值在0.95置信水平下的置信区间为元每平方米。类似地也可以计算出其它区域单位价格均值的置信区间。这一结果对于广州市各区域业主评估房产价值而言也许具有一定的参考意义。预测区间以很大概率覆盖随机变量,置信区间以很大概率覆盖分布中的参数。这是二者在目的上的不同,而从区间长度来看,预测区间的长度往往长于置信区间,这一点可以从二者的表达式中看出。比如,预测区间下界的表达式为,而置信区间下界的表达式为。当使用样本均值估计参数时,上述两个式子的第二项正好相差倍,这导致了置信区间往往窄于预测区间。为了更充分地说明这一点,下面我们通过股票收益率的实际案例进行分析。数据方面我们沿用之前多次使用的2019-2020年上交所的1422只主板A股的日度收益率数据,对每只股票分别计算其日度收益率的预测区间和均值的置信区间,对应的置信水平和预测区间覆盖概率均为0.9。以“东风汽车”这只股票为例,2019-2020年日度收益率的预测区间为[-4.58%,5.06%],均值的置信区间为[0.023%,0.46%]。显然,置信区间比预测区间更窄,并且随着样本数据的积累,置信区间会变得越来越窄。对比置信区间和预测区间还可以发现,预测区间包含0,而置信区间则完全大于0。这一结果和本节开头案例2中介绍的大多数情况一致。这说明,对该股票而言,其短期走势难以预测,可能是正收益也可能是负收益,但是长期来看却能够获得正收益。为了进一步对比分析预测区间和置信区间的差别,随机抽取了100支股票,然后对每一只股票分别计算其预测区间和置信区间,并展示在下面的图2.3.6中,其中左图是预测区间,而右图是置信区间。请注意,左右两图中Y轴的尺度差别是很大的。从左图中可以看出,所有的预测区间全都包含了0,这意味着,短期来看这100支股票全都具有收益率为负的风险,看不出其中任何股票具有投资价值。而与之相对应地,右图中虽然大部分置信区间还是包含了0,但其中仍然有11支股票的置信区间整体大于0,这意味着从长期来看这11支股票具有一定盈利能力,也许有更好的投资价值。
图2.3.6 2019-2020年上交所100只主板A股日度收益率的预测区间和均值的置信区间
最后总结一下。本节首先介绍了区间估计的理论和含义,然后在中心极限定理的理论铺垫下,给出了均值的区间估计公式,并讨论了方差已知和未知时均值区间估计的不同。最后结合二手房价格和股票收益率两个实际案例对比分析了预测区间和置信区间的区别。均值只是分布的其中一个特征,对于另一个常见的特征方差,我们也可以使用区间估计的方法计算它的大致范围。这部分内容将在下一节中进行介绍。